1.2 ¡Qué es la ciencia de datos?
La ciencia de datos es una disciplina emergente donde, a diferencia de otros saberes como, por ejemplo, las ciencias matemáticas, el corpus o la acumulación de conocimiento se ha generado en un lapso de tiempo relativamente corto (y de una forma muy intensa), y no a lo largo de siglos de historia. Su inicio data de la década de 1970, aunque ya el término análisis de datos, acuñado por J. Tukey en 1962 en su artículo The Future of Data Analysis (Tukey, 1962) se puede considerar como un precedente del término ciencia de datos. En dicho artículo, Tukey definió, por primera vez, el análisis de datos como: “procedimientos para analizar datos, técnicas para interpretar los resultados de dichos procedimientos, formas de planificar la recopilación de datos para hacer su análisis más fácil, más preciso o acertado, y toda la maquinaria y los resultados de las estadísticas matemáticas que se aplican al análisis de datos” (Tukey, 1962). A partir de este momento, toda una serie de acontecimientos fueron consolidando el término ciencia de datos como una nueva disciplina. Una breve descripción de los acontecimientos se muestran en la Fig. 1.1.
La ciencia de datos implica la limpieza, la agregación y la manipulación de datos recabados de la web, de teléfonos inteligentes, de clientes, de pacientes, de sensores o de encuestas, entre otras fuentes, para llevar a cabo un análisis de datos avanzado de los mismos, así como su modelización, para ayudar a detectar patrones, tendencias, comportamientos y, por tanto, facilitar la toma de decisiones. El crecimiento acelerado del volumen de fuentes de datos y, posteriormente, de datos, ha hecho que la ciencia de datos sea uno de los campos de más rápido desarrollo en todas las industrias. Como resultado, no sorprende que surgiera la nueva profesión del científico de datos, para ayudar a comprender y a analizar los volúmenes masivos de datos que se acumulaban en ese momento, trabajo que fue calificado como el “trabajo más sexy del siglo XXI” por T. H. Davenport & Patil (2012).
La ciencia de datos es, por tanto, una disciplina relativamente nueva que combina la estadística, las matemáticas, la informática y la programación, para obtener valor de los datos.
Se utiliza en una amplia variedad de campos, como la astronomía, la medicina, la economía, el marketing, las finanzas, la biología, la industria, etc. Esta naturaleza transdisciplinaria de la ciencia de datos añade cierta complejidad a su caracterización pues, como se ha avanzado, siendo una única disciplina, subsume en su ejercicio otras disciplinas como las ciencias matemáticas y la estadística y la ciencia de la computación, que a su vez son aplicadas a un amplio rango de dominios de manera integral. La ciencia de datos se sirve de los métodos formales de las matemáticas y de las aplicaciones prácticas e ingenieriles de las ciencias de la computación para la generación de conocimiento y para la resolución de problemas prácticos en múltiples campos. Esta ubicuidad la sitúa, transversalmente, entre los saberes de primer orden. En otras palabras, la ciencia de datos va adoptando los paradigmas, modelos, teorías o constructos propios del campo sustantivo en el que se ejerce, de forma que, para resolver alguna problemática sobre personas, puede recurrir al corpus relativo de la psicología o de la sociología y, para profundizar sobre alguna condición de salud, puede hacer lo propio con la medicina o la biología, por mencionar algunos ejemplos.
